SPSS 配对样本 T 检验教程
作者:Ruben Geert van den Berg,归属于 Statistics A-Z 和 T-Tests
配对样本 T 检验 (Paired Samples T-Test) 用于检验两个变量的总体均值是否可能相等。
- 配对样本 T 检验的假设 (Paired Samples T-Test Assumptions)
- SPSS 配对样本 T 检验对话框 (SPSS Paired Samples T-Test Dialogs)
- 配对样本 T 检验输出 (Paired Samples T-Test Output)
- 效应量 - Cohen’s D (Effect Size - Cohen’s D)
- 检验正态性假设 (Testing the Normality Assumption)
例子
一位教师为同一门课程设计了 3 份试卷。他需要知道这些试卷的难度是否相同,因此他要求他的学生以随机顺序完成所有 3 份试卷。只有 19 名学生自愿参加。他们的数据(部分如下所示)位于 compare-exams.sav 中。数据包含了每个学生在所有 3 份试卷上的正确答案数量。
零假设
通常,配对样本 T 检验的零假设 (Null Hypothesis) 是两个变量具有相等的总体均值。现在,我们没有关于整个学生群体的数据。我们只有一个 N = 19 名学生的 样本,并且样本结果往往与总体结果不同。因此,即使总体均值确实相等,我们的样本均值也可能略有不同。然而,非常 不同的样本均值不太可能出现,因此表明总体均值根本不相等。那么,样本均值是否差异足够大以得出这个结论呢?我们将通过对每 对 试卷运行配对样本 T 检验来回答这个问题。但是,此检验需要一些假设,因此让我们首先研究这些假设。
配对样本 T 检验的假设
从技术上讲,配对样本 T 检验等同于对差值分数的 单样本 T 检验 。因此,它需要相同的 2 个假设。这些是:
- 独立观察 (independent observations):
- 正态性 (normality):差值分数必须在总体中 呈正态分布。只有在小样本量时才需要正态性,例如 N < 25 左右。
我们的考试数据可能包含 独立 的观察结果:每个个案都包含一个单独的学生,他们在完成考试时没有与其他学生互动。 由于我们只有 N = 19 名学生,因此我们 确实 需要 正态性 假设。调查这一点的唯一方法是实际计算每对试卷之间的差值分数,作为我们数据中的新变量。我们稍后会这样做。
此时,您应该仔细检查您的数据。至少,对结果变量运行一些直方图,看看它们是否看起来合理。如有必要,为每个变量设置和计数 缺失值 。如果一切顺利,请按照如下所示进行实际测试。
SPSS 配对样本 T 检验对话框
您可以在 A nalyze(分析) C ompare Means(比较均值)
P aired Samples T Test(配对样本 T 检验)下找到配对样本 T 检验,如下所示。
在下面的对话框中, 选择每 对 变量,然后
将其移动到“Paired Variables”(配对变量)中。对于 3 对变量,您需要执行此操作 3 次。
单击 P aste(粘贴)会创建下面的 语法 。我们为粘贴的语法添加了一个更短的替代方案,您可以绕过整个对话框。让我们运行任一版本。
配对样本 T 检验 语法
***Syntax pasted from analyze - compare means - paired-samples t-test.
**
T-TEST PAIRS=ex1 ex1 ex2 WITH ex2 ex3 ex3 (PAIRED)
/CRITERIA=CI(.9500)
/MISSING=ANALYSIS.
***Shorter version below results in exact same output.
**
T-TEST PAIRS=ex1 to ex3
/CRITERIA=CI(.9500)
/MISSING=ANALYSIS.
配对样本 T 检验 输出
当运行测试时,SPSS 会创建 3 个输出表。最后一个表 - Paired Samples Test(配对样本检验) - 显示实际的测试结果。
SPSS 报告每对变量的差值分数的均值和标准差。均值是样本均值之间的差值。如果总体均值相等,它应该接近于零。
考试 1 和 2 之间的均值差 没有 在 α = 0.05 时达到 统计显著性 。这是因为 ‘Sig. (2-tailed)’ 或 p > 0.05。
95% 置信区间 包括零:零均值差完全在可能的总体结果范围内。
类似地,第二个测试(未显示)表明考试 1 和 3 的均值 确实 存在统计上的显著差异,t(18) = 2.46, p = 0.025。考试 2 和 3 之间的最终测试也是如此。
效应量 - Cohen’s D
我们的 T 检验表明考试 3 的平均分数低于其他 2 门考试。下一个问题是:这些差异是大还是小?一种回答这个问题的方法是计算 效应量 度量。对于 T 检验,通常使用 Cohen’s D 。它在 SPSS 26 及更低版本中不存在,但如果需要,可以在 Excel 中轻松计算,如下所示。
由此获得的效应量为:
- d = -0.23(第一对)- 大致是一个 小 效应;
- d = 0.56(第二对)- 略高于 中等 效应;
- d = 0.57(第三对)- 略高于 中等 效应。
解释问题
到目前为止,我们使用 3 个 T 检验比较了 3 对试卷。这里的一个缺点是所有 3 个测试都使用相同的微小学生样本。这增加了至少 1 个测试仅因偶然性而具有统计学意义的风险。对此有两种基本的解决方案:
- 应用 Bonferroni 校正 以调整显著性水平;
- 同时对所有 3 门考试运行 重复测量方差分析 (repeated measures ANOVA) 。
如果您选择方差分析方法,您可能希望使用事后检验来跟进。而这些事后检验 - 你猜怎么着?- 再次是 Bonferroni 校正的 T 检验…
检验正态性假设
到目前为止,我们盲目地假设我们的配对样本 T 检验的正态性假设成立。由于我们有一个 N = 19 名学生的小样本,我们 确实 需要这个假设。评估它的唯一方法是计算实际的差值分数作为我们数据中的新变量。我们将使用下面的语法来做到这一点。
***Compute difference scores as new variables.
**
compute dif_1_2 = ex1 - ex2.
compute dif_1_3 = ex1 - ex3.
compute dif_2_3 = ex2 - ex3.
execute.
结果
我们现在可以通过运行以下测试来检验正态性假设:
- Shapiro-Wilk 检验 ,
- Kolmogorov-Smirnov 检验 或
- Anderson-Darling 检验
对我们新创建的差值分数进行测试。由于我们在单独的教程中讨论了此类测试,我们将自己限制在下面的语法中。
***Run normality tests from Analyze - Descriptive Statistics - Explore.
**
EXAMINE VARIABLES=dif_1_2 dif_1_3 dif_2_3
/statistics none
/plot npplot.
***Note: difference score between 1 and 2 violates normality assumption.**
结果
结论:考试 1 和 2 之间的差值分数不太可能在总体中呈正态分布。这违反了我们的 T 检验所需的正态性假设。这意味着我们可能 根本不应该 对考试 1 和 2 运行 T 检验。比较这些变量的一个好的替代方法是 Wilcoxon 符号秩检验 ,因为它不需要任何正态性假设。
最后,如果您计算差值分数,您可以完全绕过配对样本 T 检验:相反,您可以对差值分数运行 单样本 T 检验 ,以零作为检验值。下面的语法就是这样做的。如果您运行它,您将获得与之前的配对样本测试完全相同的结果。
***Test if all difference scores have zero means.
**
T-TEST
/TESTVAL=0
/MISSING=ANALYSIS
/VARIABLES=dif_1_2 dif_1_3 dif_2_3
/CRITERIA=CI(.95).